Revízna databáza 


Revízna databáza (ang. revision database) je taký typ databázy, ktorý je optimalizovaný 
na ukladanie dát (napr. dokumentov), ktoré sa nachádzajú v rôznych modifikáciách alebo revíziách. 
Základnou jednotkou, v prípade textových dokumentov, je jedná stránka s revíziami — takže revízna 
databáza je vlastne aj „databáza, ktoré je zložená z ďalších databáz“ (stránky s revíziami sú autonómne 
voči ostatným stránkam s revíziami a môžu byť inač interné spracované alebo ukladané). Procesy, ktoré 
sa interne používajú na ukladanie revízií stránok, využívajú aj fakt, že revízie nejakého dokumentu sa 
vzájomne od seba často odlišujú iba v nejakom malom alebo menšom rozsahu. 

Revízna databáza je praktický vhodná pre wiki databázy, kde pri praktickom teste na exporte 
Slovenskej Wikipédie z dňa 2024-01-01 sa pri porovnaní voči celkovej vstupnej veľkosti stránok (s ich 
revíziami) výstupná veľkosť uložených dát potrebných na uloženie obsahu prostredníctvom revíznej 
databázy, s využitím aj riadkového revízneho kódovania, dosahovala hodnotu pod 10 % ato je zároveň 
aj menej ako súčet všetkých zvlášť komprimovaných revízií všetkých stránok (t.j. 37,44 %), 
a v porovnaní s veľkosťou vstúpneho „bzip2 XML“ exportu bol výstupný „revízny bzip2 XML“ export 
bol menší a dosahoval hodnotu takmer 40 %. 


Praktické testovanie 
Na testovanie bol použitý vstupný súbor: https://dumps.wikimedia.org/skwiki/20240101/skwiki- 
20240101-pages-meta-history.xml.bz2. 
Pri testoch, mimo porovnania exportov, sa na šírku 4 bajtov ukladajú informácie o veľkosti 


každého „ukladaného prvku“ a prípadne aj počet prvkov „v poli“. 


Indexy pozícií v riadkovom revíznom kódovaní sú ukladané v binárnom formáte a indexované 
podľa prvého výskytu riadku na vstupe. Neskôr po vytváraní celého indexu nie sú (asociované) indexy 
nijak zoradzované. 


Revízna databáza 


V teste boli zvolené iba také typy ukladania, v ktorých sa zvlášť ukladajú indexy a zvlášť ukladajú 
zakódované revízie. 


Slovenská Wikipédia (2024-01-01, obsah stránok) 


Veľkosť [Bajtov] Počet stránok 
RAW 6 283 808 <1% 124 716 21% 
RAW 
(stránky a revízie jednotlivo 77 016 670 3% 76 188 13% 
komprimované) 
Riadkové kódovanie 3 448 686 <1% 20 895 3% 
Riadkové kódovanie 
(kľúče komprimované a serializované: 1 995 881 974 95% 344 900 60% 


revízie jednotlivo komprimované) 


Riadkové kódovanie 
(kľúče v RAW, 87 <1% 1 <1% 
revízie jednotlivo komprimované) 


Riadkové kódovanie 


(kľúče jednotlivo komprimované, 1 179 963 <1% 365 <1% 
revízie jednotlivo komprimované) 
Spolu 2 083 811 188 567 065 
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Revízne riadkové kódovanie 
Nasledujúca tabuľka porovnaná celkové RAW veľkosti, komprimované veľkosti a rôzne typy uloženia 
výstupu z riadkového revízneho kódovania. Komprimovanie je použité zlib DEFLATE. Dáta sú 
uložene v RAW / v binárnom uložení alebo serializované vo formáte igbinary. 


Slovenská Wikipédia (2024-01-01, obsah stránok) 


# Typ uloženia Veľkosť [B] Veľkosť [%] 

#1 | RAW 51 738 063 484 

#2 RAW (stránky a revízie jednotlivo 19 373 227 898 37,44 % 
komprimované) 

#3 |Riadkové kódovanie 5 086 655 580 9,83 % 

gra Pl Oy kodovani 1 141 094 689 2,21 % 


(serializované, komprimované) 


Riadkové kódovanie 
#5 | (kľúče komprimované a serializované: 2 106 132 144 4,07 % 
revízie jednotlivo komprimované) 


Riadkové kódovanie 
#6 | (kľúče v RAW, 4 745 082 025 9,17 % 


revízie jednotlivo komprimované) 


Riadkové kódovanie 
#7 |(kPúče jednotlivo komprimované, 4 063 701 152 7,85 % 


revízie jednotlivo komprimované) 


48 Revízna databáza 2 083 811 188 4,03 % 


(najmenšia veľkosť z #1 až #7, mimo #4) 


Porovnanie exportov 


Porovnanie veľkosti exportu bzip2 --best pre súbor skwiki-20240101-pages-meta-history.xml 
Veľkosť 


2 791 690 077 B 
(-2 791 MB) 


1 115 6/0 397 B 
("1 115 MB, takmer 40 % komprimovaného originálu) 


Originál (.bz2) 


Riadkové revízne kódovanie (binárne) 


Vytvárané výstupné XML s riadkovým revíznym kódovaním je upravený alebo je prispôsobené 
riadkovému kódovaniu. 
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Šírka bajtov pre indexy zakódovaných revízií (bonus) 


Indexy jednotlivých zakódovaných revízií boli uložené na nasledovnú šírku bajtov (big-endian): 


Veľkosť Počet 
1B 545266 96% 
2B 21797 3% 
3B 2 <1% 


Riadkové revízne kódovanie 
Riadkové revízne kódovanie je také kódovanie, pri ktorom sa z jednotlivých riadkov revízií vytvorí 
index pozícií a aj zakódované revízie, pričom jedná zakódovaná revízia je súborom indexových pozícií 
prislúchajúcich riadkov obsahu podľa tabuľky indexových pozícií. 


Príklad 
Vstupné revízie Revízne riadkové kódovanie 
Posdelšk Index pozícií Zakódované revízie 
1. utorok Index | Hodnota Index Zakódovaná revízia 
eda 1 Pondelok 1 1-2-3 
streda 3 streda 
Porovnanie veľkosti kódovania 
(binárne uloženie veľkosti/počtu na 1 bajt) 
Index 1. 


jav „ .. | 2. revízia | Spolu Spolu (detailné) 
pozícií | revízia 


Počet rev. (1 B) + 1. rev. (23 B) + 2. rev. (16 B) = 


RAW 23B 16B 40 B 40 B 
Revízne Pon $ 
a Index. pozícií (24 B) + počet rev. (1 B) + 
HN | SAB: | AE PB U 1. rev. (6 B) + 2. rev. (3 B) = 34 B 
kódovanie 


4/4 


